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H 要 不 显著 结果 (如 , p> 0.05) 在 心理 学 研究 中 十 分 常见 ， 且 容易 被 误解 为 接受 零 假 设 的 证 据 ， 并 可 能 : 
致 分 组 匹配 研究 的 错误 推断 或 者 忽视 被 小 样本 的 不 显著 结果 掩盖 的 真实 效应 。 但 国内 目前 尚 无 实证 研究 对 不 
显著 结果 的 普遍 性 及 其 解读 进行 调查 。 本 研究 调查 500 篇 中 文 心理 学 实证 研究 ， 统计 其 摘要 中 出 现 与 不 显著 
结果 相关 的 阴性 陈述 的 频率 ,判断 并 统计 基于 阴性 陈述 的 推断 准确 性 ， 并 使 用 贝 叶 斯 因子 对 不 显著 结果 中 包 
含 1 值 的 研究 进行 重新 评估 。 结 果 表 明 , 36% 的 摘要 提 及 不 显著 结果 ， 共 包含 236 个 阴性 陈述 。 其 中 , 41% 的 阴 
性 陈述 对 不 显著 结果 的 解读 出 现 偏差 (如 ， 解读 为 支持 了 零 假设 )。 对 包含 1 值 的 研究 进行 贝 叶 斯 因子 分 析 ， 结 
RETIA 5.1% 的 不 显著 结果 可 以 提供 强 证 据 支 持 零 假设 (BFol > 10)。 与 先前 对 国际 心理 学 期 刊 的 调查 结 

相 比 (32% 的 摘要 包含 了 朋 性 陈述 ; 72% 的 阴性 陈述 对 不 显著 结果 的 解读 错误 )， 中 文 心理 学 期 刊 中 报告 不 显著 结 
果 的 比例 更 高 ， 且 对 不 显著 结果 解读 错误 的 比例 更 低 。 但 国内 研究 者 仍 需 进一步 加 强 对 不 显著 结果 的 认识 ， 推 
广 适 于 评估 不 显著 结果 的 统计 方法 。 

关键 词 ”不 显著 结果 ， 零 假设 显著 性 检验 ， 贝 叶 斯 因子 ， 元 研究 
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1 引言 大 小 做 出 是 否 拒绝 零 假 设 的 二 分 决策 。 具 体 而 言 ， 
a \ 个 预 设 的 a BOEING FE LE 0.05), 
基于 正确 的 统计 推断 方法 是 从 数据 中 得 到 正 。 字 2 人 5) 
; ee paca 、 研究 者 可 以 拒绝 零 假 设 从 而 接受 备 择 假设 ; 而 当 
确 结论 的 重要 前 提 之 一 。 当 前 科研 实践 中 ， 主 导 : she i EO He EPEAT} 
的 统计 推断 方法 是 零 假设 显著 性 检验 (Null 疡 值 大 于 此 阔 值 时 ， 研 究 者 无 法 拒绝 零 假设 。 然 而， 
ie 无 法 拒绝 零 假设 存在 两 种 可 能 : 一 是 数据 支持 零 
ypothesis significance testing, ) (American 假设 ， 即 效应 不 存在 (evidence of absence); 二 是 
缺乏 充分 的 统计 功效 ， 因 而 未 检测 到 真实 存在 的 
效应 (Dienes，2014，2016)， 即 没有 证 据 表 明 效 应 
存在 (absence of evidence)。 
收 稿 日 期 : 2020-07-14 研究 者 很 早 就 意识 到 NHST 的 局 限 性 (Amrhein 
通信 作者 : 胡 传 月 , E-mail: hcp4715@hotmail.com et al., 2019; Edwards et al., 1963; Gigerenzer et al., 


Psychological Association, 2010; Wasserstein & 
Lazar, 2016). 在 此 框架 下 ， 人 研究 者 通常 根据 p 值 
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2004; Meehl, 1967; Miller, 2011; Nickerson, 2000; 
Ziliak & McCloskey, 2008), — J Mi, 基于 NHST 
的 二 分 决策 思维 一 定 程度 上 导致 了 研究 者 对 不 显 
著 结果 的 忽视 甚至 歧视 ,进而 引发 了 论文 发 表 过 
程 中 的 发 表 偏 倚 (publication bias), Fanelli (2012) 
分 析 各 学 科 的 文献 后 发 现 ,各 种 学 科 发 表 的 论文 
中 ， 阳 性 /显著 结果 的 比例 均 大 于 阴性 /不 显著 结 
果 的 比例 ， 而 心理 学 论文 中 阳性 结果 的 比例 高 达 
95% 以 上 。 这 种 发 表 偏 倚 可 能 会 导致 研究 者 对 真 
实效 应 的 错误 估计 (Algermissen & Mehler, 2018; 
Schafer & Schwarz，2019)， 从 而 在 一 定 程度 上 加 
剧 了 心理 学 领域 的 可 重复 性 危机 (Baker 2016; 
Ioannidis, 2005; Klein et al., 2014; Open Science 
Collaboration, 2015; H1f4M5 等 , 2016)。 另 一 方面 ， 
研究 中 还 会 出 现 对 不 显著 结果 的 错误 解读 ， 即 尽 
管 p > 0.05 无 法 区 分 "数据 支持 零 假设 "与 “数据 不 
足以 支持 或 拒绝 原 假设 "这 两 种 情况 , 但 研究 者 
在 结论 表述 中 经 常 出 现 混 淆 ,错误 地 将 p > 0.05 
作为 支持 零 假设 的 证 据 ， 影响 结论 的 可 信和 度 
(Greenland et al., 2016; X. Lyu et al., 2020; Z. Lyu 
etal., 2018; WHIM 等 , 2016; 骆 大 森 , 2017). Lyu 
等 人 (2020) 调 查 发 现 ，53% 的 研究 者 错误 地 认为 ， 
当 p > 0.05 时 , 数据 支持 了 零 假设 。 

上 述 对 不 显著 结果 的 错误 解读 可 能 带 来 两 个 
严重 的 后 果 。 第 一 ， 错 误 地 接受 零 假 设 会 影响 对 
随后 干预 效果 的 推断 。 在 临床 试验 中 , 研究 者 多 
使 用 卡 方 检验 或 独立 样本 t 检验 来 分 析 实 验 组 与 
控制 组 在 一 些 混淆 变量 上 的 差异 (例如 性 别 、 年 
We, BOAR ABE). Ht 检验 的 p (AKT 0.05 时 (如 
0.06)， 研 究 者 可 能 认为 两 组 在 该 变量 上 没有 差异 ， 
在 后 续 对 干预 效果 的 分 析 中 不 再 考虑 该 变量 的 影 
Me), 忽视 了 该 变量 可 能 带 来 的 严重 混淆 。 第 二 个 
后 果 是 对 阴性 结果 的 忽视 。 研 究 者 可 能 由 于 小 样 
本 等 原因 缺乏 足够 的 检验 力 来 检测 到 实际 存在 的 
效应 ， 进 而 得 到 不 显著 结果 (Button et al., 2013; 
Chen et al., 2018)。 在 这 种 情况 下 ， 如 果 错 误解 读 
不 显著 结果 ,研究 者 会 得 出 效应 不 存在 的 结论 ， 
这 样 可 能 错失 潜在 重要 的 效应 (Fiedler et al., 
2012)。 例 如 ， 一 项 多 中 心 合作 的 元 分 析 (meta- 
analysis， 也 译 为 苓 菜 分 析 ) 显 示 ， 尽 管 帕 金森 病 患 
者 的 左 侧 壳 核 在 元 分 析 结 果 中 是 全 脑 最 异常 的 脑 
区 ; 但 单个 中 心 的 结果 中 ， 由 于 检验 力 较 低 ， 只 
有 2 个 中 心 的 壳 核 异常 在 进行 多 重 比较 矫正 后 仍 


达到 显著 水 平 (Jia et al., 2018)。 

尽管 目前 对 于 NHST 框架 下 不 显著 结果 的 讨 
论 逐 渐 增 多 (如 小 康 ，2014; 仲 晓 波 ，2016), 但 是 
大 多 数 是 基于 理论 与 方法 的 探讨 ,缺乏 实证 性 研 
究 探 讨 当 前 国内 心理 学 领域 发 表 论 文中 不 显著 结 
果 的 普遍 性 和 解读 情况 。Aczel 等 人 (2018) 回 顾 
2015 年 发 表 在 Psychonomic Bulletin & Review, 
Journal of Experimental Psychology: General 和 
Psychological Science 上 的 412 篇 实证 研究 论文 ， 
发 现 摘 要 中 包含 阴性 陈述 (研究 者 直接 阐明 效应 
不 存在 或 者 提 及 不 显著 的 结果 ) 的 文章 接近 1/3, 
这 其 中 有 72% 的 文章 都 存在 对 不 显著 结果 的 错误 
解读 。 那 么 , 在 国内 心理 学 领域 的 权威 期 刊 中 , 是 
否 也 存在 类 似 的 错误 解读 不 显著 结果 的 情况 ? 

此 外 ,在 实际 研究 中 , 研究 者 有 时 确实 需要 
证 实 零 效应 或 者 零 假 设 为 真 。 如 前 所 述 ， 对 于 被 
试 间 设 计 的 组 间 匹 配 问题 ， 研 究 者 需要 尽量 保持 
实验 组 与 控制 组 在 某 些 属性 上 (如 年 龄 ,性别 ) 的 一 
致 性 。 在 这 种 情况 下 ,研究 者 需要 能 够 为 “其 他 方 
面 没 有 差异 ”这 个 零 假设 提供 证 据 。 有 时 , 研究 者 
也 有 可 能 需要 检验 两 个 相互 竞争 的 理论 ,用 实验 
数据 说 明 其 中 一 个 理论 所 预测 的 差异 并 不 存在 ， 
即 支 持 零 假 设 。 换 言 之 , 在 某 些 情境 下 , WES 
假设 为 真 ” 才 是 研究 者 所 想 要 达到 的 目标 。 这 一 目 
标 服务 于 拒绝 或 者 证 否 某 个 研究 假设 、 提 出 替代 
的 新 研究 假设 ， 从 而 促进 科学 理论 的 发 展 。 

由 于 NHST 无 法 为 零 假设 提供 支持 ,而 用 p > 
0.05 为 零 假设 提供 支持 实际 上 是 错误 的 做 法 
(Chuard et al., 2019)。 因 此 ,研究 者 需要 引入 合适 
的 统计 方法 探究 数据 支持 零 假 设 的 程度 ， 如 贝 叶 
斯 因子 (Bayes factors, BFs) (Wagenmakers et al., 
2018; Wagenmakers et al., 2011; 胡 传 鹏 等 , 2018). 
Aczel 等 人 (2018) 对 基于 检验 得 出 不 显著 结果 的 
数据 进一步 计算 其 贝 叶 斯 因子 ,进而 评估 数据 支 
持 零 假设 的 程度 ,结果 表明 在 这 些 不 显著 的 + 检 
验 结果 中 ,只 有 3% 的 上 检验 能 够 得 到 较 强 的 证 据 
支持 零 假设 (BFo1 > 10), 71% 的 1 检验 仅 能 够 得 到 
中 等 强度 的 证 据 支 持 零 假设 (10 > BFo > 3)。 这 一 
结果 表明 , 在 缺乏 恰当 的 统计 方法 的 情况 下 ， 研 
究 者 可 能 忽视 了 一 个 重要 的 问题 ， 即 得 到 不 显著 
结果 的 数据 无 法 提供 足够 强 的 证 据 支 持 零 假设 。 
这 一 研究 现象 在 国内 心理 学 核心 期 刊 已 发 表 论 
文中 是 否 存在 , 也 是 值得 探索 的 问题 。 理 解 这 一 
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现象 能 进一步 帮助 国内 心理 学 研究 者 了 解 到 ， 
错误 解读 不 显著 结果 会 得 到 错误 支持 零 假 设 的 
结论 。 
为 了 了 解 中 文 心理 学 研究 论文 中 对 于 不 显著 
结果 的 解读 现状 , 本 研究 参考 Aczel 等 人 (2018) 的 
文章 , 调查 了 5 本 国内 心理 学 的 核心 期 刊 (《 心 理 
学 报 》《 心 理科 学 》《 中 国 临 床 心理 学 杂志 》《 心 
理发 展 与 教育 》 以 及 《心理 与 行为 研究 》) 在 2017 
年 与 2018 年 发 表 的 实证 研究 论文 。 具 体 而 言 ， 本 
研究 分 析 了 随机 抽取 的 500 篇 论文 中 不 显著 结果 
的 报告 情况 和 错误 解读 的 比例 , 通过 计算 贝 叶 斯 
因子 评估 得 到 不 显著 结果 的 数据 是 否 确实 可 以 支 
持 零 假 设 , 并 评估 其 支持 的 程度 ,之 后 ， 本 研究 还 
对 比 了 中 文 核心 期 刊 和 国际 期 刊 中 对 于 不 显著 结 
果 解 读 现 状 的 差异 。 本 文 旨 在 帮助 研究 者 意识 到 
对 不 显著 结果 出 现 误 读 的 普遍 性 ， 进 而 在 统计 推 
断 过 程 中 更 为 谨慎 细致 ， 避 人 免 错误 解读 的 发 生 。 

2 方法 

21 文章 抽样 

本 研究 选取 5 本 可 以 免费 下 载 全 文 的 国内 心 
理学 核心 期 刊 , 分 别 是 《心理 学 报 》《 心 理科 学 》、 
《中 国 临床 心理 学 杂志 入 《心理 发 展 与 教育 》 以 
及 《心理 与 行为 研究 六 这 些 期 刊 涵盖 了 不 同 领域 
的 心理 学 研究 ， 如 认 知 心理 学 、 发 展 心理 学 、 社 
会 心理 学 、 临 床 心理 学 等 。 随 后 ,整理 出 这 5 个 
杂志 于 2017~2018 年 发 表 的 所 有 实证 研究 论文 ， 


“不 包含 阴性 陈述 
数据 收集 


数据 收集 
摘要 阅读 
完整 指标 


简易 指标 
"包含 阴性 陈述 


初步 编码 


i 
编码 校对 


ga VE 


即 包 含 数 据 分 析 部 分 的 论文 (不 包括 综述 、 元 分 析 
或 者 评论 等 ), 摘录 各 个 杂志 中 2017~2018 年 所 有 
实证 研究 论文 的 标题 、 出 版 时 间 、 卷 号 、 页 码 ， 并 
为 每 篇 文章 进行 编号 。 例如, 《心理 学 报 》 的 第 2 
篇 文献 编码 为 1002 一 一 1 表示 心理 学 报 所 对 应 的 
杂志 JID (不 同 杂志 对 应 不 同 的 杂志 ID), 002 表示 
该 文献 是 在 杂志 中 的 排序 。 具 体 编码 规则 见 
https://osf.io/mf42q/。 最 后 ,根据 每 个 期 刊 发 文 量 ， 
按 比例 对 每 个 期 刊 的 实证 研究 论文 进行 随机 抽 
取 。《 心 理学 报 》《 心 理科 学 》《 中国 临床 心理 学 
杂志 入 《心理 发 展 与 教育 》 以 及 《心理 与 行为 研 
究 》 的 实证 研究 数目 分 别 为 246、299、379、162、 
213， 总 共 1299 篇 文章 ， 对 应 的 发 文 比例 分 别 为 
18.94%, 23.02%, 29.18%, 12.47%, 16.40%. A 
此 ,随机 抽取 的 文章 数目 分 别 为 : 《心理 学 报 》95 
篇 《心理 科学 》115 篇 《中 国 临 床 心理 学 杂志 》 
146 篇 《心理 发 展 与 教育 》62 篇 《心理 与 行为 
研究 》82 篇 。 用 于 随机 抽取 文章 的 代码 见 https:// 
osf.io/7my4g/。 
2.2 ”文章 编码 

编码 过 程 分 为 3 步 , 分别 是 初步 编码 、 编 码 
校对 和 分 类 编码 及 校对 (图 1)。 在 初步 编码 中 , 我 
们 将 选择 的 500 篇 文献 随机 分 为 13 份 ， 分 配给 13 
名 编码 人 员 。 上 有 具体 编码 过 程 如 下 : 阅读 每 篇 文章 
的 摘要 ,判断 其 是 否 包 含 至 少 一 个 阴性 陈述 
(Negative statement， 也 被 译 为 负 性 陈述 ， 两 者 为 
同一 概念 , 本 文 统 一 使 用 阴性 陈述 )。“ 阴 性 陈述 ”是 


分 类 编码 及 校对 


图 1 文献 编码 和 数据 提取 流程 
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指 研究 者 直接 阐明 效 应 不 存在 (如 “干预 组 和 控 表 
组 之 间 不 存在 差异 7”)， 或 者 提 及 不 显著 的 结果 (如 
“没有 证 据 支 持 干预 组 和 控制 组 有 显著 差异 ”)。 如 
果 摘 要 中 不 包含 阴性 陈述 , 那么 编码 人 员 只 需要 
摘录 文章 的 基本 信息 ,包括 文章 编号 、 引 用 、 A 
章 链 接 以 及 文章 类 型 。 如 果 摘 要 中 包含 至 少 一 

阴性 陈述 ,那么 除了 以 上 基本 信息 之 外 ,还 应 
录 该 阴性 陈述 以 及 正文 中 与 其 对 应 的 统计 检验 信 


= 


2018)。 贝 叶 斯 因子 可 以 用 于 比较 数据 支持 备 择 假 
W (H) A E 1B i (Ho) W +8 XT FE E (Wagenmakers 
et al., 2018)， 公 式 如 下 : 
P(DatalH,) 
P(DatalH') 

BF, 的 下 标 1 表示 My, 0 表示 Hoo Att, BF 
代表 Hy 5 H XT WPF, m BF RR Ay 


BF); = 


t 


oF 


息 。 其 中 , 统计 检验 信息 主要 包括 统计 检验 方法 ， 
当 统 计 检 验方 法 为 1 检验 时 (包括 单 样本 1 检验 ， 配 
对 样本 1 检验 和 独立 样本 1 检验 ), 还 需要 摘录 +t 值 ,， 
p 值 和 样本 量 。 这 部 分 信息 用 于 后 续 的 贝 叶 斯 因 
子 计 算 。 

为 确保 编码 内 容 的 准确 性 ,在 完成 初次 编码 
之 后 , 重新 分 配 文章 ， 进 行 编码 校对 工作 。 具体 的 
编码 模板 和 编码 流程 可 以 参考 补充 材料 (https:// 
osf. uae 

得 到 文章 的 阴性 陈述 及 相应 的 统计 结果 数据 
ee Fg ye tential Ce 
编码 ， 随 后 共同 讨论 存在 分 歧 的 分 类 编码 结 
得 到 最 终 的 阴性 陈述 分 类 结果 。 有 具体 类 别 及 其 分 
类 标准 见 表 1。 为 了 评估 6 名 评分 者 的 一 致 性 ,使 
用 Gamer 等 人 (2019) 开 发 的 R 包 irr (函数 kappam. 
fleiss) 计 算 了 Fleiss' kappa (Fleiss, 1971)。 该 指标 
适用 于 编码 变量 为 分 类 变量 且 评 分 者 多 于 两 位 的 
情况 。 
2.3” 贝 叶 斯 因子 分 析 

为 了 重新 评估 采用 t 检验 ( 单 样本 1 检验 、 配 
对 样本 t 检验 或 独立 样本 t 检验 ) 的 研究 数据 支持 
零 假设 的 程度 ,我 们 根据 文章 报告 的 统计 检验 参 
数 (样本 量 和 上 值 ) 计 算 贝 叶 斯 因子 (Ly et al., 


与 Ay 对比 的 贝 叶 斯 因子 。 例 如 , BF = 10 表示 在 
零 假 设 Hy 为 真 的 条 件 下 出 现 当 前 数据 的 概率 是 
备 择 假设 Hi 为 真 的 情况 下 出 现 当 前 数据 概率 的 
10 倍 。 基 于 Jeffreys (1961) 对 于 不 同 BFo 值 对 应 
意义 的 划分 Wagenmakers 等 人 (2018) 明 确 了 不 同 
大 小 的 BFo 对 应 的 意义 。 然 而 ， 这 种 划分 方式 仅 
作 参 考 , 研究 者 需要 根据 特定 的 研究 问题 对 BF 
的 意义 进行 评估 。 

参考 Aczel 等 人 (2018) 的 研究 , 使 用 Morey 等 
(2015) 开 发 的 R 包 BayesFactos (函数 ttest.tstat) 计 
算 BFo1。 该 软件 包 的 默认 设置 是 使 用 双 尾 柯 西 分 
布 (Cauchy distribution) 作 为 备 择 假设 的 先 验 
(= 区 为 尺度 参数 ， 也 有 文献 中 使 用 力 。 先 
前 研究 表明 这 种 备 择 假设 的 先 验 设置 是 比较 恰当 
的 (Ly et al., 2016a, 2016b; Rouder et al., 2009)。 同 
时 , 为 了 探究 贝 叶 斯 因子 结果 的 稳定 性 ,我 们 选 
择 不 同 的 先 验 分 布 分 别 计算 贝 叶 斯 因子 。 其 中 一 
种 先 验 分 布 为 正 态 分 布 (Dienes，2014)， 相 比 于 默 
认 先 验 , 正 态 先 验 分 布 在 0 附近 的 概率 密度 相对 
更 大 ， 因 此 得 到 的 效应 比 默 认 先 验 的 结果 更 接近 
0。 另 一 种 先 验 分 布 为 Gronau 等 人 (2019) 基 于 专家 
意见 确定 的 效应 量 分 布 ( 即 有 信息 的 先 验 )， 反 映 
了 专家 对 于 效应 量 分 布 的 信念 (中 位 数 为 0.350)。 


表 1 阴性 陈述 的 具体 类 别 以 及 分 类 标准 


类 别 分 类 标准 


示例 


基于 频率 主义 的 正确 解读 根据 NHST 的 逻辑 对 不 显著 结果 进行 解读 ,， 即 仅 说 ”结果 表明 没有 证 据 支 持 干 预 组 和 控制 组 
明 其 结果 无 法 拒绝 零 假 设 ,或 无 法 支持 备 择 假设 。 
基于 频率 主义 的 错误 解读 “将 不 显著 结果 解读 为 文 持 了 研 


有 (显著 ) 差 异 。 


究 中 样本 所 在 总 体 水 ”结果 表明 干预 没有 效果 。 


一 一 推广 至 总 体 平 上 的 零 假设 。 
基于 频率 主义 的 错误 解读 将 不 显著 结果 解读 为 支持 了 研究 中 样本 中 的 零 假 ”结果 表明 干预 组 和 控制 组 之 间 没有 

一 一 基于 当前 样本 设 。 差异 。 
基于 贝 叶 斯 因子 的 解读 利用 贝 叶 斯 因子 支持 零 假 设 而 非 备 择 假 设 。 BFo > 10， 表 明 有 强 的 证 据 支持 零 假设 。 
难以 判断 由 于 阴性 陈述 的 语言 措 律 ,对 其 类 别 难以 做 出 明确 ” 除 恕 惯 情绪 外 ,基本 表情 的 强度 越 大 ， 


判断 。 


被 试 对 表情 的 识别 越 好 。 
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人 中 国 临床 心理 学 杂志 E i5 (46/146) 
(a) 500 心理 学 报 [43.2%0 (41/95) 
摘要 心理 科学 37.4% (43/115) 
心理 与 行为 研究 HE 32.9% (23/62) 
心理 发 展 与 教育 E 38.7% (27/82) 
不 包含 阴性 陈述 
PS 50 100 150 
E 包含 阴性 陈述 摘要 数量 
28% 心理 学 报 [ | 
236 中 国 临床 心理 学 杂志 | 
O) 53% 阴性 陈述 
g 心理 科学 | o 
5% 心理 与 行为 研究 上 7 | 
频率 主义 的 正确 解读 心理 发 展 与 教育 上 
难以 判断 20 40 60 
E 频率 主义 的 错误 解读 一 基于 当前 样本 阴性 陈述 数量 
m 频率 主义 的 错误 解读 一 推广 至 总 体 ” 


图 2 (9) 阴 性 陈述 在 不 同 杂志 中 的 占 比 ; 


(b) 阴 性 陈述 的 解读 分 类 在 不 同 杂 志 中 的 占 比 


TE: 此 分 类 是 基于 解读 四， 


考虑 到 研究 者 可 能 误 把 p 值 作为 支持 零 假设 
的 证 据 , 我 们 进一步 探究 了 p 值 与 BFo 之 间 的 关 
A, MRT p 值 与 BFo 之 间 的 相关 系数 t 
(Kendall’s ts) (Kendall & Gibbons, 1990) 及 其 对 应 
的 95% 可 信和 区间 (credible intervals，CIs)， 以 此 评 
fti p 值 是 否 与 BFo 存在 较 强 的 相关 。 如 果 p 值 与 
BFol 存在 较 强 的 相关 ， 则 较 大 的 p 值 从 某 种 程度 
上 可 以 支持 零 假 设 ; 假如 p 值 与 BFo 不 存在 较 强 
的 相关 , 尤其 是 当 p > 0.05 时 与 BFo 的 相关 较 弱 ， 
则 表明 使 用 较 大 p 值 作为 支持 零 假 设 的 证 据 是 错 
误 。 由 于 所 分 析 的 相关 关系 并 非 线性 关系 ,我 们 
选择 使 用 相关 系数 t+。 我 们 使 用 Signorell (2017) 
开发 的 R 包 DescTools 中 的 函数 Kendall TauB 计算 
t; 基于 和 上 检验 数目 通过 函数 credibleInterval 
KendallTau (van Doorn et al.，2018) 计 算 对 应 的 
95% CIs。 最 后 ， 由 于 大 样本 量 的 研究 往往 能 够 提 
供 更 强 的 证 据 ， 我 们 也 采用 同样 的 方法 探索 了 
BF; 与 样本 量 之 间 的 相关 关系 。 


3 结果 


3.1 不 显著 结果 在 中 文 文献 中 的 普遍 性 
本 次 分 析 的 结果 发 现 , 在 500 篇 实证 文章 中 ， 


见 正文 关于 两 种 解读 的 说 明 。 


36% 的 文章 摘要 包含 了 至 少 一 个 阴性 陈述 。 其 中 
《心理 学 报 》 上 发 表 的 文章 摘要 包含 阴性 陈述 的 
比例 最 高 (43%), 但 是 所 有 杂志 的 这 一 比例 都 超 
过 了 30% ( 见 图 2a)', 这 一 结果 表明 ,在 心理 学 实 
证 研究 论文 中 阴性 陈述 非常 普遍 。 


1 


于 500 篇 文章 的 研究 类 型 包括 实验 . 准 实验 和 问卷 调查 ， 
那么 不 同 的 研究 类 型 中 出 现 阴性 陈述 的 比例 可 能 不 同 。 因 
此 我 们 分 析 了 在 不 同 杂志 中 , 不 同 研究 类 型 下 阴性 陈述 分 
陈 
be 


布 情况 。 结 果 发 现 ,实验 (45.8%) 和 准 实验 (36.2%) 在 阴性 
述 中 占 比 相对 问卷 调查 (17.9%) 较 大 。 但 是 由 于 不 同 的 杂志 
研究 侧重 的 研究 方向 不 同 ,使 得 不 同 研究 类 型 在 不 同 杂 志 
中 的 占 比 差 异 较 大 。 例 如 在 《心理 学 报 》《 心 理科 学 》 以 
及 《心理 与 行为 研究 》 中 , 实验 类 的 文章 占 比 较 大 , 均 超 过 
50%。 而 在 《中 国 临 床 心理 学 杂志 》 和 《心理 发 展 与 教育 》 
中 ,问卷 调查 和 准 实 验 研究 的 比例 较 大 。 需 要 强调 的 是 ， 同 
一 篇 文章 可 能 包含 多 个 研究 ， 因 此 我 们 同时 考虑 了 同一 个 
研究 对 应 不 同 的 阴性 陈述 (例如 ， 阴 性 陈述 1: 研究 结果 没 
有 发 现 研 究 1 中 的 变量 A 对 于 反应 时 有 显著 影响 ; 阴性 陈 
述 2: 研究 结果 没有 发 现 研 究 1 中 的 变量 B 对 于 反应 时 有 
显著 影响 ) 以 及 同一 个 阴性 陈述 对 应 不 同 研究 的 情况 (例如 ， 
在 阴性 陈述 研究 1 和 研究 2 中 都 没有 发 现 变量 A 对 于 反应 
时 有 显著 影响 )。 因 此 考虑 研究 类 型 的 阴性 陈述 的 总 数 为 
301， 超 过 前 文 提 到 的 236 个 阴性 陈述 。 
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3.2 ”阴性 陈述 分 类 

对 于 6 位 评分 者 关于 阴性 陈述 分 类 的 一 致 性 
分 析 结 果 表 明 , Fleiss' kappa 为 0.588 (p < 0.001). 
参考 Landis 和 Koch (1977) 对 Fleiss’ kappa 含义 的 
划分 ， 该 Fleiss’ kappa 表示 中 等 强度 的 评分 者 一 
致 性 。 此 外 ,作者 共同 讨论 Ne one 
码 结 果 ， 进 而 得 到 最 终 的 阴性 陈述 分 类 结 
此 ， 阴 性 陈述 分 类 结果 较为 可 靠 。 

在 分 类 过 程 中 发 现 ， 阴 性 陈述 中 常 出 现 类 似 
于 “没有 显著 的 差异 /效应 /作用 ”的 描述 (n = 55)。 
由 于 汉语 表达 的 模糊 性 ， 对 此 类 陈述 可 以 有 两 种 
解读 : 解读 中 认为 此 类 陈述 是 对 疡 < 0.05 的 直接 
解读 ， 即 “差异 没有 达到 统计 上 显著 水 平 ” 分 类 
为 “基于 频率 主义 的 正确 解读 ”解读 @ 四 则 认为 此 
类 陈述 是 支持 零 假设 的 描述 ， 等 同 为 “没有 差异 / 
效应 /作用 ”， 即 分 类 为 “基于 频率 主义 的 错误 解 
读 -基于 当前 样本 ”。 因 此 , 在 后 续 对 阴性 陈述 的 
分 类 结果 的 描述 中 ,我 们 分 别 依据 这 两 种 解读 进 
行 了 说 明 。 

我 们 将 “没有 显著 的 差异 /效应 /作用 ”的 陈述 
分 类 为 基于 频率 主义 的 正确 解读 ,对 236 个 阴性 
陈述 进行 分 类 。 结 果 显 示 ， 基 于 频率 主义 的 正确 
解读 占 53.4% (n = 126); 基于 频率 主义 的 错误 解 
读 占 41.1% (n = 97)， 其 中 13.6% (n = 32) 落 在 子 > 
别 基 于 频率 主义 的 错误 解读 -基于 当前 样本 中 ， 
27.5% (n = 65) 落 在 子 类 别 基于 频率 主义 的 错误 解 
读 -推广 至 总 体 中 。 此 外 还 有 5.5% (n= 13) 阴 性 陈 
述 表 述 不 清晰 ， 难 以 明确 具体 的 阴性 陈述 类 别 ， 
故 编码 为 “难以 判断 ”。 具 体 各 类 别 在 各 个 杂志 中 
的 分 布 见 图 2b。 基 于 解读 @ 的 分 类 结果 见 脚 注 ?。 
Aczel 等 人 2018 年 的 研究 中 还 考虑 了 基于 贝 叶 斯 
分 析 的 阴性 陈述 类 别 , 但 是 我 们 并 未 发 现 从 属于 
此 类 别 下 的 阴性 陈述 ， 即 在 这 些 文献 中 并 没有 使 


? 如 果 我 们 将 “没有 显著 的 差异 /效应 /作用 ”的 陈述 分 类 为 基 
于 频率 主义 的 错误 解读 -基于 当前 样本 ， 再 次 对 236 个 阴性 
陈述 进行 分 类 。 解 读 的 改变 只 影响 基于 频率 主义 的 正确 解 
读 和 基于 频率 主义 的 错误 解 - 基 于 当前 样本 这 两 个 类 别 的 
阴性 陈述 数目 ,不 影响 其 余 两 类 的 陈述 分 类 。 结 果 显 示 ， 
于 频率 主义 的 正确 解读 占 30.1% (n = 71); 相对 的 ， 基 于 频 
率 主义 的 错误 解读 占 64.4% (n = 152)， 其 中 36.9% (n = 87) 
落 在 子 类 别 基 于 频率 主义 的 错误 解读 -基于 当前 样本 中 ， 


用 贝 叶 斯 因子 评估 支持 零 假 设 的 程度 的 案例 ， 因 
此 在 本 研究 中 剔除 该 类 别 。 
3.3” 贝 叶 斯 因子 分 析 

在 NHST 框架 下 , 研究 者 只 能 根据 p 值 大 小 
做 出 是 否 拒绝 零 假 设 的 二 元 决策 ， 因 而 无 法 得 到 
支持 零 假 设 的 证 据 。 因 此 ,我 们 结合 上 检验 的 数据 
重新 计算 BFo， 进 而 评估 得 到 不 显著 结果 的 数据 
支持 零 假设 的 程度 。 

在 所 有 统计 检验 中 , 使 用 1 检验 且 报 告 了 1 检 
验 统计 量 和 样本 量 的 统计 检验 数目 为 39。 根 据 t 
检验 的 t 值 和 样本 量 , 使 用 中 等 尺度 的 双 尾 柯 西 
分 布 (Cauchy distributiom 作 为 备 择 假设 的 先 验 计 
算 BFu， 范 围 在 0.51 到 10.64。 参 考 Wagenmakers 
等 人 (2018) 对 BFo 含义 的 划分 , 以 1、3 和 10 为 
临界 值 将 BFol 划 分 为 “ 较 弱 的 证 据 支 持 H”, P 
的 证 据 支 持 Ho”,“ 中 等 程度 的 证 据 支 持 Ho” AIR 
的 证 据 支持 Ho” o RREH, 39 个 1 检验 中 有 2.6% 


(n = 1) 的 BFo 表明 有 和 较 弱 的 证 据 支持 Hl，33.3% 
(n = 13) 的 BFo 表明 有 较 弱 的 证 据 支 持 Ho, 59% 
(n = 23) 的 BFo, 表明 有 中 等 程度 的 证 据 支持 Ho, 


而 只 有 5.1% (n = 2) 的 BFo1 表明 有 强 的 证 据 支持 
Hoo 换言之 , 如果 作者 在 原文 中 做 出 了 支持 Ho AY 
JEW, WY BFo 表明 这 些 检验 中 只 有 一 半 左 右 有 中 
等 或 强 的 证 据 支 持 Hu。 因此, 研究 者 基于 p 值 推 
Wh 为 真是 不 恰当 的 。 

为 了 验证 结果 的 稳健 性 ， 避 人 免 先 验 设 定 对 结 
果 造 成 影响 ,我 们 分 别 使 用 正 态 先 验 和 有 信息 先 
验 重新 计算 贝 叶 斯 因子 。 不 同 先 验 设置 下 BFo 的 
分 布 如 图 3a 所 示 。 基 于 正 态 先 验 , BFo 的 范围 为 
0.45 到 6.00; 其 中 有 15.4% (n = 6) 的 BFo 表明 有 
较 弱 的 证 据 支 持 Hy, 64.1% (n = 25) 的 BFo 表明 有 
较 弱 的 证 据 支 持 Ho, 20.5% (n = 8) 的 BFo 表明 有 
中 等 程度 的 证 据 支 持 oo 而 基于 有 信息 先 验 , BF, 
范围 为 0.41 到 21.69; 其 中 20.5% (n = 8) 的 BFo 
表明 有 较 弱 的 证 据 支 持 H, 53.8% (n= 21) 的 BFu 
表明 有 较 弱 的 证 据 支 持 Hy, 17.9% (n = 7) 的 BFol 
表明 有 中 等 程度 的 证 据 支持 Ay, MRA 7.7% (n= 
3) 的 BFo 表明 有 强 的 证 据 支 持 Ho。 由 此 可 见 ， 基 
于 不 同 的 先 验 设 定 , BFo 的 分 布 存在 差异 。 

研究 进一步 探究 先 验 设置 对 于 阴性 陈述 分 类 
的 影响 。 结 果 表 明 ， 将 默认 先 验 更 改 为 有 信息 先 
验 时 ，BFo 所 对 应 的 含义 发 生 更 改 的 比例 为 60% 


27.5% (n = 65) 落 在 子 类 别 基于 频率 主义 的 错误 解读 一 一 推 
广 至 总 体 中 。 


(n = 23); 而 将 默认 先 验 更 改 为 正 态 先 验 时 ，BFol 


| = 
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图 3 (a) 不 同 先 验 设置 下 BFo 的 分 布 及 含义 ; (b) 默 认 先 
验 下 的 BFo 与 己 值 的 关系 ; (c) 默 认 先 验 下 的 BFo 
与 样本 量 的 关系 

TE: 针对 同一 个 样本 可 能 存在 多 个 BFo 值 ， 例 如 样本 量 为 

138 的 样本 对 应 多 个 BFo1。 


所 对 应 的 含义 发 生变 化 的 比例 为 61.5% (n = 24)。 
这 说 明 先 验 分 布 的 设置 对 于 BFo 所 对 应 的 含义 有 
较 大 影响 ,研究 者 在 计算 BFw 时 需要 谨慎 选择 恰 
当 的 先 验 分 布 。 

最 后 ,我 们 对 于 贝 叶 斯 因子 进行 了 探索 性 的 
分 析 , 分 别 探究 BFo1 与 p 值 以 及 BFo 与 样本 量 的 
相关 关系 。 由 于 使 用 + 检验 是 报告 了 上 检验 统计 量 
和 样本 量 的 统计 检验 数目 仅 为 39， 本 研究 的 相关 
分 析 结 果 仅 供 参 考 ， 需 要 后 续 研 究 进一步 验证 结 
果 的 可 靠 性 。 为 了 探究 p 值 与 对 应 的 BFoi 的 相关 


KA, 我们 绘制 了 p 值 与 BFo 的 散 点 图 (图 3b), 
并 计算 了 相关 系数 + 及 其 对 应 95% 可 信 区 间 。 结 
果 显 示 ,p 值 与 BFo0i 的 相关 系数 t 为 0.527, 其 95% 
CI 为 [0.282，0.687]; 说 明 p 值 越 大 ， 对 应 的 BF 
HERK. m, ME 3b 可 以 看 出 ， 相 关 关 系 主 
要 体现 在 p 值 较 小 (p < 0.2) 的 不 显著 结果 当中 ; 随 
着 p 值 增 大 , BFo 的 变化 趋 近 平缓 。 因 此 ,该 结论 
的 合理 性 需要 后 续 人 研究 进行 探讨 。 

同样 ,研究 分 析 了 样本 量 与 BFoi 之 间 的 关系 
(图 3c)。 结 果 表 明 , 样本 量 与 BFo, 之 间 的 相关 系 
Bl tH 0.243, 95% 可 信和 区 间 为 [0.018, 0.431], 说 明 
BFo1 与 样本 量 的 相关 不 强 。 由 图 3c 同样 可 以 看 出 ， 
随 着 样本 量 的 增加 ，BFui 的 变化 并 不 明显 。 然 而 ， 
样本 量 的 范围 主要 在 13 到 138 之 间 ， 只 有 个 别 研 
究 样 本 量 超过 300。 因此 , 结论 的 准确 性 还 有 待 进 
一 步 验证 。 


4 讨论 


本 研究 对 500 篇 随机 选取 的 中 文 心理 学 实证 
研究 论文 进行 分 析 ， 摘录 所 有 出 现在 摘要 部 分 的 
阴性 陈述 ， 并 且 摘 取 与 阴性 陈述 相关 的 统计 量 、 
样本 量 重 新 计算 贝 叶 斯 因子 ， 旨 在 探究 心理 学 
中 文 核心 期 刊 中 实证 论文 不 显著 结果 的 普遍 性 及 
其 解读 的 正确 程度 , 并 与 国际 期 刊 的 现状 进行 
比较 。 

在 阴性 陈述 出 现 的 普遍 性 上 ,我 们 发 现 有 
36% 的 论文 摘要 (n = 180) 中 包含 了 阴性 陈述 ， 即 
研究 者 直接 阐明 效应 不 存在 或 者 提 及 不 显著 的 结 
果 。 例 如 ， 对 于 发 表 在 《心理 学 报 》 上 的 实证 研 
究 论文 ， 摘 要 中 包含 阴性 陈述 的 比例 超过 了 
40%。 而 Aczel 等 人 (2018) 回 顾 了 发 表 在 国际 核心 
期 刊 上 (Psychonomic Bulletin & Review, Journal of 
Experimental Psychology: General 和 Psychological 
Science) 的 实证 研究 后 ， 发 现在 摘要 部 分 提 及 阴 
性 陈述 的 文章 比例 为 32%; 这 一 比例 低 于 我 们 对 
国内 期 刊 进行 调查 统计 后 得 到 的 结果 ,结合 Aczel 
等 人 (2018) 的 研究 ， 本 研究 的 结果 表明 不 显著 结 
果 在 心理 学 研究 中 不 可 或 缺 ， 研 究 者 需要 不 显著 
结果 来 辅助 其 进行 推断 ; 尤其 是 在 实验 研究 中 ( 即 
Aczel 等 人 (2018) 所 分 析 的 主要 研究 类 型 )， 阴 性 
陈述 出 现 的 比例 高 达 45.8%. 

在 对 不 显著 结果 的 解读 正确 率 上 , 虽然 41.1% 
陈述 中 存在 对 不 显著 结果 的 错误 解读 (将 “无 显著 
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差异 ”分 类 为 基于 频率 主义 的 正确 解读 ， 即 解读 
D), 但 Aczel 等 人 (2018) 的 结果 表明 国际 期 刊 中 
错误 解读 不 显著 结果 的 比例 高 达 72%。 即 使 我 们 
将 国内 研究 者 常用 的 表述 “无 显著 差异 ”作为 错误 
解读 (解读 @: 64.4%)， 错 误解 读 的 比例 仍然 低 于 
国际 期 刊 中 的 比例 。 这 一 结果 表明 , 虽然 国内 研 
究 者 与 国际 同行 相似 ,对 不 显著 结果 的 错误 解读 
十 分 普遍 ， 但 表现 在 文章 中 的 错误 解读 比例 仍然 
低 于 国际 心理 学 期 刊 中 的 比例 。 值 得 注意 的 是 ， 
基于 不 同 解读 的 分 类 结果 相差 AMAT 这 提示 
研究 者 需要 对 此 类 涉及 统计 推断 的 表述 进行 明确 
清晰 的 表达 。 

此 外 ， 贝 叶 斯 因子 分 析 的 结果 发 现 ， 即 便 考 
虑 了 不 同 先 验 分 布 的 设置 情况 , 鲜 有 BFo 取 值 


BFo 会 随 着 p 值 的 增 大 而 增 大 ; 但 是 当 p 值 较 大 
EF, p 值 的 增 大 并 不 会 对 BFo 造成 较 大 的 影响 。 这 
也 反应 了 NHST 的 局 限 ， 即 p 值 的 大 小 并 没有 明 
确 的 含义 , 不 能 衡量 研究 假设 为 真 或 为 假 的 概率 ， 
更 大 的 p 值 并 不 意味 着 有 更 强 的 证 据 支 持 零 假 设 
(ia 等 , 2016; X. Lyu et al., 2020)。 Wetzels 等 人 
(2011) 的 结果 也 同样 表明 ， 当 p 值 较 大 时 ,BFo1 随 
Pp 值 的 变化 幅度 小 。 除 了 心理 学 研究 , Hoekstra 等 
人 (2018) 对 医学 研究 中 出 现 的 不 显著 结果 进行 分 
析 后 ,发 现 BFo 的 log 形式 与 p 值 存在 线性 相关 ， 
即 随 着 p 值 的 增加 , BFo BE p 值 的 变化 幅度 变 小 。 

对 于 样本 量 与 BFu， 相 关系 数 仅 为 0.243, 说 明 随 
着 样本 量 的 增加 , BFo 的 变化 幅度 小 ,而 p 值 会 受 
到 样本 量 的 影响 ( 程 开明 ， 李 泗 娥 ， 2019)。 即 使 效 


大 于 10 (默认 先 验 : n= 2; 正 态 先 验 : n= 0; 有 信 
息 先 验 : n=3), 大 部 分 BFot 取 值 小 于 3 (默认 先 
iW: n=14; 正 态 先 验 : n = 31; 有 信息 先 验 : n= 
29)。 虽 然 研究 者 对 于 BFo 所 表示 的 证 据 强 度 的 解 
读 可 能 存在 差异 (Sch6nbrodt，2015), 但 是 大 部 分 
还 是 将 BF) < 3 解读 为 微弱 的 支持 零 假设 的 证 据 ， 
将 BFo > 10 解读 为 强 的 支持 零 假 设 的 证 据 (Lee & 
Wagenmakers, 2014)。 这 一 贝 叶 斯 因子 分 析 结 果 与 
国际 期 刊 的 结果 较为 相似 , 但 由 于 能 够 提供 较 强 
支持 证 据 的 样本 量 小 ， 所 以 无 法 说 明 在 这 一 点 上 
国内 期 刊 的 优势 是 明显 的 。 贝 叶 斯 因子 分 析 的 结 
果 表 明 ， 基 于 得 到 不 显著 结果 的 数据 计算 获得 的 
BFo 几乎 无 法 得 到 强 的 文 持 零 假 设 的 证 据 。 但 是 ， 
贝 叶 斯 因子 分 析 中 上 检验 对 应 的 样本 量 大 部 分 小 
于 100, Aczel 等 人 (2018) 也 提出 该 结果 部 分 原因 
可 能 在 于 心理 学 研究 中 的 样本 量 小 (Button et al., 
2013; Stussi et al., 2018; HIB 等 , 2019; WE 
书 等 , 2019)。 而 Hoekstra 等 人 (2018) 重 新 分 析 了 
医学 领域 的 不 显著 结果 , 发现 当 样本 量 大 时 ， 数 
据 得 到 的 支持 零 假设 的 程度 强 。 
同时 , 我 们 通过 相关 分 析 探 究 p 值 大 小 和 样 
本 量 大 小 与 BFo 的 相关 关系 。 然 而 本 研究 对 于 
BFo 5 p 值 和 样本 量 的 相关 分 析 仅 仅 是 简单 的 探 
索 ， 同 时 相关 分 析 涉 及 的 上 检验 数目 仅 为 39， 因 
此 ,我们 希望 有 研究 可 以 进一步 详细 探讨 这 些 变 
量 间 的 关系 , 得 到 更 可 靠 的 结论 ,对 于 p 值 和 BFo1， 
相关 系数 为 0.527。 但 与 Aczel 等 (2018) 的 研究 相 
似 的 是 , 我 们 同样 发 现 p 值 和 BFo 的 正 相 关 主 要 
出 现在 pb 值 较 小 的 不 显著 结果 当中 。 当 p< 0.2 时 ， 


应 量 很 小 ， 当 样本 量 足够 大 时 ， 也 很 容易 得 到 显 
著 结 果 。 因 此 , 研究 结论 不 应 该 只 关注 统计 结果 
是 否 显著 ,而 是 将 统计 结果 与 效应 的 实际 意义 相 
结合 。 不 过 正如 前 文 所 述 ， 贝 叶 斯 因子 分 析 中 的 t 
检验 数目 以 及 对 应 样本 量 都 较 小 ,因此 本 结果 的 
普 适 性 有 待考 证 。 

值得 注意 的 是 ，Aczel 等 人 (2018) 发 现 了 有 
10% 的 阴性 陈述 是 基于 贝 叶 斯 因子 进行 统计 推断 ， 
而 非 基 于 NHST 进行 统计 推断 。 而 本 研究 随机 选 
取 的 500 篇 文章 中 并 没有 涉及 贝 叶 斯 因子 的 使 用 ， 
这 在 一 定 程度 上 反映 出 国内 研究 者 较 少 了 解 能 够 
支持 零 假设 的 方法 。 因 此， 吕 小 康 (2012) 建 议 研究 
者 需要 更 多 地 关注 其 他 统计 推断 方法 作为 NHST 
的 补充 ， 以 适当 的 难度 向 研究 者 介绍 不 同 统计 方 
法 背后 的 原理 ， 从 而 更 全 面 的 了 解 不 同方 法 的 优 
劣势 ; 例如 等 价 性 检验 (Equivalence test) (Lakens 
et al., 2018; Lakens et al., 2018; Rogers et al., 1993), 
贝 叶 斯 估计 (Bayesian estimation) (Kruschke, 2011; 
Kruschke & Liddell, 2018; McElreath, 2018) 和 贝 叶 
斯 因子 (Bayes factor) (Wagenmakers et al., 2018; 
Wagenmakers et al., 2011; 胡 传 鹏 等 , 2018)。 具体 
的 方法 使 用 可 以 参考 陆 春 雷 等 (2020)。 

本 研究 与 Aczel 等 (2018) 的 研究 还 存在 一 个 
重要 的 区 别 : 本 研究 的 阴性 陈述 分 类 额外 考虑 了 
“难以 判断 ”的 类 别 。 例 如 ， 编 号 为 2052 的 文章 对 
于 不 显著 结果 的 表述 为 “ 泛 化 法 任务 中 ,疼痛 表 
情 仅 在 秒 上 条 件 延 长 了 主观 时 距 ”"， 这 种 表述 隐 
TAER BLP BUN ee 或 者 没有 发 现 其 他 情 
况 下 效应 存在 的 意思 ， 这 分 别 对 应 着 错误 解读 和 
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正确 解读 两 种 情况 。 然 而 我 们 无 法 确定 作者 希望 
表达 的 含义 ， 因 此 将 这 种 描述 分 类 为 “难以 判断 ”。 
这 类 含糊 的 表述 在 一 定 程度 上 反映 了 研究 者 对 不 
显著 结果 表述 准确 性 的 忽视 ， 过 分 关注 显著 结果 
的 陈述 。 此 外 ,我 们 还 发 现 文献 中 用 词 不 规范 的 
情况 。 例 如 ， 有 文章 写 道 “在 运动 员 群 体 中 ， 高 状 
态 焦虑 对 加 工效 能 和 正确 率 都 影响 不 大 ” 这 同 
样 说 明 研究 者 需要 更 加 谨慎 地 对 待 不 显著 结果 。 

本 文 虽然 揭示 了 当前 文献 中 存在 着 对 不 显著 
结果 的 错误 解读 , 但 无 法 对 产生 这 些 误解 的 原因 
进行 探讨 。 其 中 一 个 可 能 的 原因 是 教科 书 中 关于 
p 值 的 解读 存在 错误 。 例 如 ，Cassidy 等 人 (2019) 
统计 了 北美 心理 学 教材 关于 值 的 解读 ， 发 现 很 
大 一 部 分 教科 书 对 p 值 存在 误解 。 而 国内 教科 书 
也 存在 对 于 不 显著 结果 的 错误 解读 。 例 如 ， 张 厚 


紧 和 人 徐 建 平 (2015) 在 第 八 章 写 道 “ 假 设 检验 的 问题 ， 


就 是 要 判断 虚无 假设 研 是 否 正确 ,决定 接受 还 是 
拒绝 (reject) 虚 无 假设 Ho”， 卢 淑 华 (2009) 在 第 七 章 
写 道 “ 如 果 在 原 假设 Hy 成 立 的 条 件 下 ,根据 样本 
所 计算 的 某 个 统计 量 , 发 生 的 可 能 性 不 是 很 小 的 
W, 那么 就 接受 原 假设 ”。 这 些 表述 都 认为 基于 
NHST 可 以 得 到 接受 零 假 设 的 证 据 。 教 科 书 中 此 
类 的 错误 解读 可 能 是 国内 研究 者 错误 解读 不 显著 
结果 的 原因 之 一 。 

本 研究 也 存在 几 点 局 限 。 第 一 ， 负 责编 码 的 
研究 人 员 共 有 13 名 ,可 能 对 编码 手册 的 理解 存在 
差异 , 例如 摘 取 的 阴性 陈述 篇 幅 长 短 不 一 致 。 为 
了 减 小 这 些 差 异 的 影响 ， 每 篇 文章 的 编码 都 至 少 
由 两 位 编码 者 进行 编码 , 由 第 二 位 编码 者 校对 第 
一 位 编码 者 的 工作 。 同 时 ， 对 于 研究 关注 的 阴性 
陈述 的 分 类 编码 ， 先 由 6 名 编码 人 员 独 立 完 成 ， 
再 共同 讨论 存在 分 歧 的 编码 结果 ,并 通过 Fleiss' 
kappa 评估 分 类 结果 的 评分 者 一 致 性 ， 说 明 编 码 
结果 较为 可 靠 。 第 二 ,本 研究 通过 贝 叶 斯 因子 量 
化 数据 支持 零 假 设 的 程度 时 ， 仅 使 用 了 t 检验 的 
数据 ， 因 此 许多 使 用 相关 分 析 等 其 他 统计 分 析 方 
法 的 数据 并 未 包含 在 贝 叶 斯 因子 计算 之 中 。 但 是 
本 研究 的 结果 与 Aczel 等 人 (2017) 的 结果 模式 一 
致 。 他 们 对 于 35515 篇 已 发 表 的 文章 中 出 现 的 基 
于 工 检验 ,已 检验 和 相关 分 析 的 显著 结果 重新 计算 
了 贝 叶 斯 因子 ,结果 发 现 心理 学 研究 中 不 同 的 统 
计 检 验 得 到 的 证 据 强 度 是 类 似 的 ， 因此 本 研究 中 
基于 t 检验 的 数据 在 一 定 程度 上 可 以 推广 到 其 他 


的 统计 检验 中 。 第 三 , 人 研究 仅 统计 了 2017 年 和 
2018 年 的 数据 ,， 仅 能 在 一 定 程度 上 反映 当时 的 情 
况 ， 对 于 近 5 年 或 者 近 10 年 情况 以 及 变化 趋势 可 
能 无 法 提供 数据 信息 。 第 四 ,在 临床 试验 中 ,可 能 
错误 地 接受 零 假 设 进而 推断 两 组 在 某 些 变量 上 是 
匹配 的 , 但 这 些 详细 的 信息 一 般 不 出 现在 摘要 中 ， 
将 来 可 以 针对 该 问题 进行 全 文 搜索 。 

虽然 本 研究 存在 一 些 局 限 , 但 是 研究 结果 依 
然 提 示 心 理学 乃至 其 他 实证 科学 的 研究 者 在 研究 
中 需要 重新 审视 不 显著 结果 对 应 的 结论 。 对 不 显 
著 结 果 的 错误 解读 可 能 会 带 来 严重 的 后 果 : 忽略 
了 被 试 间 设 计 中 实验 组 与 控制 组 存在 的 实际 差异 ; 
忽视 小 样本 研究 中 不 显著 结果 可 能 掩盖 了 真实 的 
效应 (Jia et al., 2018). 错误 解读 不 显著 结果 也 可 能 
是 出 版 偏 倚 的 原因 (Franco et al., 2014; Kiihberger 
et al.，2014)， 由 此 可 能 诱发 研究 者 的 p 值 操 纵 
(p-hacking) 行 为 (Head et al., 2015)， 从 而 导致 研究 
难以 重复 或 者 效应 量 严重 减 小 (Baker 2016; Klein 
et al., 2014; Open Science Collaboration, 2015; if] 
传 鹏 等 , 2016)。 因 此 , 研究 者 在 科学 研究 过 程 中 
应 加 强 对 不 显著 结果 解读 的 严 灌 性， 避免 带 来 消 
极 后 果 。 


5 总 结 


通过 分 析 5 本 中 文 心理 学 期 刊 上 的 500 篇 实 
证 研究 ， 本 研究 发 现 中 文 文献 中 阴性 陈述 较为 普 
遍 ， 且 比例 高 于 国际 期 刊 , 表明 不 显著 结果 在 心 
理学 实证 研究 中 有 重要 的 地 位 。 而 在 不 显著 结果 
的 解读 方面 ， 中文 期 刊 中 的 错误 解读 比例 小 于 国 
际 期 刊 中 的 比例 。 另 外 ， 贝 叶 斯 因子 的 分 析 表 明 
文献 中 不 显著 结果 的 数据 并 不 能 提供 较 强 的 支 
持 零 假设 的 证 据 。 总 的 来 说 ， 国 内 研究 者 需要 进 
一 步 加 强 对 不 显著 结果 的 认识 ,并 使 用 恰当 的 统 
计 方 法 来 评估 数据 对 零 假设 的 支持 程度 ， 以 减少 
对 不 显著 结果 的 错误 解读 ,提高 心理 学 研究 的 


质量 。 
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Abstract: Nonsignificant results are common in psychological research and can be easily misinterpreted as 
evidence for accepting null hypothesis. This misinterpretation may lead to false statistical inferences in 
empirical research. However, how prevalent this misinterpretation exists in Chinese published psychological 
studies is unknown. To answer this question, we randomly selected 500 empirical research papers published 
between 2017 and 2018 in Acta Psychological Sinica, Journal of Psychological Science, Chinese Journal of 
Clinical Psychology, Psychological Development and Education, Psychological and Behavioral Studies, 
screened articles in which the abstracts contained any sentences that indicated nonsignificant results (we call 
these sentences “negative statements” hereafter). We then read those articles and extracted negative- 
statements-related statistics and their interpretations, and evaluated the correctness of each interpretation. 
Finally, we calculated Bayes factors based on the available ¢ values in these nonsignificant results. The 
protocol was pre-registered at OSF (https://osf.io/czx6f). We found that (1) out of 500 empirical research, 
36% of their abstracts (n = 180) contained negative statements; (2) in those 180 articles, we extracted 236 
nonsignificant results and corresponding interpretations, and found that 41% of these interpretations was 
incorrect, (3) Bayes factor analysis revealed that only 5.1% (n = 2) of available nonsignificant t-values (n = 
39) can provide strong evidence in favor of null hypothesis (BFol > 10). We compared the results with Aczel 
et al. (2018) and discussed the potential reasons that caused the misinterpretation. These data suggest that 
Chinese psychology researchers need to improve their understanding of nonsignificant results and statistical 
inference. 
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